许多语言对资源低,这意味着可用并行数据的金额和/或质量不足以训练可以达到可接受的准确性标准的神经机器翻译(NMT)。许多作品探索了在任何一种或两种语言中使用易于使用的单晶体数据来提高低,甚至高资源语言的翻译模型的标准。此类作品中最成功的之一是使用目标语言单格式数据的翻译来增加培训数据的量。已经显示了在可用并行数据上培训的后向模型的质量,以确定反平移方法的性能。尽管如此,在标准后退翻译中只有前向模型得到改善。以前的研究提出了一种迭代的反转换方法,用于改进两种迭代的模型。但与传统的背翻译不同,它依赖于目标和源单格式数据。因此,这项工作提出了一种新颖的方法,其使向后和前向模型能够通过分别通过自学习和后翻的混合来从单声道目标数据中受益。实验结果表明,在英国德国低资源神经电脑翻译中传统的背翻译方法的提出方法的优势。我们还提出了一种迭代自学习方法,优于迭代背翻译,同时仅依赖于单机目标数据并要求培训更少的模型。
translated by 谷歌翻译
We introduce a novel framework to track multiple objects in overhead camera videos for airport checkpoint security scenarios where targets correspond to passengers and their baggage items. We propose a Self-Supervised Learning (SSL) technique to provide the model information about instance segmentation uncertainty from overhead images. Our SSL approach improves object detection by employing a test-time data augmentation and a regression-based, rotation-invariant pseudo-label refinement technique. Our pseudo-label generation method provides multiple geometrically-transformed images as inputs to a Convolutional Neural Network (CNN), regresses the augmented detections generated by the network to reduce localization errors, and then clusters them using the mean-shift algorithm. The self-supervised detector model is used in a single-camera tracking algorithm to generate temporal identifiers for the targets. Our method also incorporates a multi-view trajectory association mechanism to maintain consistent temporal identifiers as passengers travel across camera views. An evaluation of detection, tracking, and association performances on videos obtained from multiple overhead cameras in a realistic airport checkpoint environment demonstrates the effectiveness of the proposed approach. Our results show that self-supervision improves object detection accuracy by up to $42\%$ without increasing the inference time of the model. Our multi-camera association method achieves up to $89\%$ multi-object tracking accuracy with an average computation time of less than $15$ ms.
translated by 谷歌翻译
韵律在言语交流中起着至关重要的作用。韵律的声明已被广泛研究。但是,韵律特征不仅被视而不见,而且在视觉上是基于头部和面部运动的视觉上。本报告的目的是提出一种使用虚拟现实检查视听韵律的方法。我们表明,基于虚拟人的动画提供了与真正说话者视频录音相似的运动提示。虚拟现实的使用开辟了新的途径,以检查口头交流的多模式效应。我们讨论了研究人工耳蜗听众中韵律感知的框架中的方法。
translated by 谷歌翻译
使用手动生成标签训练的卷积神经网络通常用于语义或实例分割。在精确的农业中,自动花探测方法使用监督模型和后处理技术,这些技术可能不会始终如一地表现为花朵的出现,并且数据采集条件有所不同。我们提出了一种自我监督的学习策略,以使用自动生成的伪标签来增强分割模型对不同花种物种的敏感性。我们采用数据增强和完善方法来提高模型预测的准确性。然后将增强的语义预测转换为全景伪标签,以迭代训练多任务模型。可以通过现有的后处理方法来完善自我监督的模型预测,以进一步提高其准确性。对多物种果树花数据集的评估表明,我们的方法的表现优于最先进的模型,而无需计算昂贵的后处理步骤,为花朵检测应用提供了新的基线。
translated by 谷歌翻译
牙科时代是确定个人年龄的最可靠方法之一。通过使用牙科全景射线照相(DPR)图像,法医科学中的医师和病理学家试图建立没有有效法律记录或注册患者的个人的年代年龄。实践中当前的方法需要密集的劳动,时间和合格的专家。在医学图像处理领域,深度学习算法的发展提高了预测真实价值的敏感性,同时降低了成像时间的处理速度。这项研究提出了一种自动化方法,以使用1,332个DPR图像估算8至68岁的个体的法医年龄。最初,使用基于转移学习的模型进行了实验分析,包括InceptionV3,Densenet201,EdgitionNetB4,MobilenetV2,VGG16和Resnet50V2;因此,修改了表现最好的模型InceptionV3,并开发了新的神经网络模型。减少开发模型体系结构中已经可用的参数数量,从而更快,更准确。所达到的结果的性能指标如下:平均绝对误差(MAE)为3.13,均方根误差(RMSE)为4.77,相关系数r $ $^2 $为87%。可以想象将新模型作为法医学和牙科医学中的潜在可靠和实用的辅助设备。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
自主驾驶中安全路径规划是由于静态场景元素和不确定的周围代理的相互作用,这是一个复杂的任务。虽然所有静态场景元素都是信息来源,但对自助车辆可用的信息有不对称的重要性。我们展示了一个具有新颖功能的数据集,签署了Parience,定义为指示符号是否明显地对自助式车辆的目标有关交通规则的目标。在裁剪标志上使用卷积网络,通过道路类型,图像坐标和计划机动的实验增强,我们预测了76%的准确性,使用76%的符号蓬勃发展,并使用与标志图像的车辆机动信息找到最佳改进。
translated by 谷歌翻译
理解和解释训练有素的模型对许多机器学习目标至关重要,例如改善鲁棒性,解决概念漂移和减轻偏见。但是,这通常是一个临时过程,涉及手动查看许多测试样本上的模型的错误,并猜测这些错误的预测的根本原因。在本文中,我们提出了一种系统的方法,概念性的反事实解释(CCE),解释了为什么分类器在人类理解的概念方面在特定的测试样本上犯了一个错误(例如,此斑马被错误地分类为狗,因为因为是因为是因为是狗的。微弱的条纹)。我们基于两个先前的想法:反事实解释和概念激活向量,并在众所周知的预读模型上验证我们的方法,表明它有意义地解释了模型的错误。此外,对于接受具有虚假相关性数据的数据训练的新模型,CCE准确地将虚假相关性确定为单个错误分类测试样本中模型错误的原因。在两个具有挑战性的医学应用程序中,CCE产生了有用的见解,并由临床医生确认,涉及该模型在现实世界中犯的偏见和错误。
translated by 谷歌翻译
将一致的时间标识符分配给视频序列中的多个移动对象是一个具有挑战性的问题。该问题的解决方案将在多个对象跟踪和分段问题中具有立即的分支。我们提出了一种将时间识别任务视为一种时空聚类问题的策略。我们提出了一种使用我们呼叫深度异构的AutoEncoder的卷积和完全连接的AutoEncoder的无监督学习方法,以了解来自分段掩码和检测边界框的歧视特征。我们从预训练的实例分段网络中提取掩码和它们相应的边界框,并使用依赖于任务的不确定性权重培训AutoEncoders以生成共同的潜在功能。然后,我们构建约束图,该图促进满足一组已知时间条件的对象之间的关联。然后将特征向量和约束图提供给kmeans聚类算法,以分离潜像中的相应数据点。我们使用挑战合成和现实世界多对象视频数据集评估我们的方法的性能。我们的结果表明,我们的技术优于几种最先进的方法。
translated by 谷歌翻译
In order for machine learning to be trusted in many applications, it is critical to be able to reliably explain why the machine learning algorithm makes certain predictions. For this reason, a variety of methods have been developed recently to interpret neural network predictions by providing, for example, feature importance maps. For both scientific robustness and security reasons, it is important to know to what extent can the interpretations be altered by small systematic perturbations to the input data, which might be generated by adversaries or by measurement biases. In this paper, we demonstrate how to generate adversarial perturbations that produce perceptively indistinguishable inputs that are assigned the same predicted label, yet have very different interpretations. We systematically characterize the robustness of interpretations generated by several widely-used feature importance interpretation methods (feature importance maps, integrated gradients, and DeepLIFT) on ImageNet and CIFAR-10. In all cases, our experiments show that systematic perturbations can lead to dramatically different interpretations without changing the label. We extend these results to show that interpretations based on exemplars (e.g. influence functions) are similarly susceptible to adversarial attack. Our analysis of the geometry of the Hessian matrix gives insight on why robustness is a general challenge to current interpretation approaches.
translated by 谷歌翻译